iT邦幫忙

2022 iThome 鐵人賽

DAY 29
0
Software Development

Python派神,大顯神威!!系列 第 29

【Day29】: 實作Python識字大考驗+ 使用OCR模組圖片變文字

  • 分享至 

  • xImage
  •  

是否常常遇到以下的一些場景:
(1). 準備考試,老師要考的內容書本上沒有,卻給大家印了一堆考試重點的PowerPointer紙本資料。
(2). 老闆給了一堆資料或文獻紙本資料,要你在有限時間做出簡報報資料。
(3). 遇到期末要交心得報告,內容全在書中。
(4). 遇到一堆書本的程式碼,需要在有限時間正確的實作出來。
(5). 秘書對於不熟領域的會議,在會議後一小時內需要從會議中的資料萃取出艱深的專有名詞成為會議紀錄。

一想到要邊看紙本文件邊打字,
就令人覺得費時又費神,
看了以上的場景敘述,您是否也有曾為此頭痛不已。
放心,現在有了Python大神後一切簡單搞定,
有人說,現在手機的文字辨識軟體免費又方便根本不用寫程式,
也對,我們可以用手機把書本或資料一張一張拍下來,
然後用手操作文字辨識軟體一張一張辨識,
在5張的範圍內你可能不嫌煩,
若是500張~1000張的時候你可能隔天要準備好支架應付抖個不停的手。

有沒有更好的方法,讓我們可以省點事,
那當然,Python大神絕對可以勝任,
想想,如果先用掃描器批次將紙張內容自動掃成影像檔(或pdf),
再呼喚Python大神批次將掃成圖檔的紙張內容批次辨識成為文字,
這段期間是不是可以做更多有意義的事(甚至可以手遊放鬆一下)。

(一) 本次「圖片轉文字」準備圖片資料
https://ithelp.ithome.com.tw/upload/images/20221015/20141198G8ESEdDbfk.png

(二) 本次「圖片轉文字」前置準備
1.安裝pytesseract、pillow

pip install pillow

pip install pytesseract
3. 下載Tesseract執行檔,並安裝至指定路徑
本次安裝在以下目錄:
D:\Program Files\Tesseract-OCR
記得將PATH設定好,程式執行才有辦法正常運作。
https://ithelp.ithome.com.tw/upload/images/20221014/20141198ANTpoj8XN3.png

(三) 本次「圖片轉文字」程式碼

from PIL import Image
import pytesseract
  
img = Image.open('page01.png')
# 若為英文eng 若為繁體中文chi_tra
content = pytesseract.image_to_string(img, lang=' chi_tra')
print(content)

執行結果:
https://ithelp.ithome.com.tw/upload/images/20221015/20141198UBNTs9dqnz.png

使用以下字體正確率達98%(恐 誤判為 懲),微軟正黑體可能會有辨識錯誤較多的現象,還有成長的空間。
https://ithelp.ithome.com.tw/upload/images/20221015/20141198ezIgnlBGof.png

以上程式短短幾行就能完成很多事情,(雖然無法辨識注音)
若再加上之前的存檔動作,
另外再給個for迴圈,
一堆圖檔任Python一掃而空,辨識無疑,
今天是不是有看到Python大神施展神技解救眾生的一幕,
明天最後一天了,我們繼續看下去。


上一篇
【Day28】: 實作Python美聲、打字秘書 + 使用speechRecognition套件語音轉文字、gTTS套件文字轉語音
下一篇
【Day30】: 結尾 – 勇氣與意志力成為某領域的專家_ Python大神之路
系列文
Python派神,大顯神威!!30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言